# 读取pdf文件，并提取表格
import pdfplumber
# 读取PDF文件
def read_pdf_1(file_path):
    with pdfplumber.open(file_path) as pdf:
        all_text = ""
        for page in pdf.pages:
            all_text += page.extract_text()
    return all_text

# 导入PyPDF2模块，用于读取PDF文件
from PyPDF2 import PdfReader
# pdf转为docx方法
def read_pdf_2(pdf_path):
    # 使用PyPDF2读取PDF文件
    reader = PdfReader(pdf_path)
    # 遍历PDF中的每一页
    content = ""
    for page_num in range(len(reader.pages)):
        # 获取每一页的内容
        page = reader.pages[page_num]
        # 将文本添加到Word文档
        text = page.extract_text()
        if text:  # 确保提取的文本不为空
            content = f"{content}\n{text}"
    return content